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摘要 : 【 目的 ] 针对 网 络 文本 篇 幅 短 小 、 传 统 文体 特征 集 稀 琉 等 特点 ， 探 讨 依存 关系 在 中 文 微 博 作 者 性 别 识别 中 
的 应 用 。[ 方法 ] 选取 腾讯 公开 微 博 作 为 实验 语 料 , 抽取 依存 关系 特征 与 现 有 文献 中 的 词汇 特征 、 结 构 特征 、 功 
能 词 特征 、 词 性 标注 特征 和 微 博 特 征 进行 对 照 实验 。[ 结果 ] 采用 支持 向 量 机 、 朴 素 贝 叶 斯 、 最 近邻 和 决策 树 算 
法 的 对 照 实 验 验 证 了 本 文 方法 在 中 文 微 博 作者 性 别 识别 任务 中 的 准确 率 、 召 回 率 和 F-Measure 最 高 。[ 局 限 ] 依 
存 关系 在 微 博 作 者 性 别 识别 中 的 有 效 性 还 需 在 大 规模 语 料 上 进一步 验证 。【 结论 ] 本 文 模型 能 够 避免 短文 本 特征 
RARE, 与 其 他 对 照 特征 集 相 比 , 能 更 有 效 地 识别 作者 性 别 。 
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了 中 


的 内 容 判断 作者 性 别 中 或 是 利用 中 文 微 博 用 户 名 和 
微 博文 本 构建 作者 性 别 分 类 融合 器 等 。 现 有 方法 的 


网 络 文本 随 着 各 种 网 络 应 用 的 快速 普及 而 大 量 消 
现 , 作者 身份 属性 分 析 在 市 场 营 销 、 网 络 取 证 等 领域 
的 应 用 已 经 成 为 热点 。Twitter 平台 上 每 天 新 增 的 信息 
在 5 亿 条 以 上 , 而 与 此 同时 用 户 身 份 频频 被 盗用 , 仅 
2016 年 就 有 超过 3 200 万 Twitter 用 户 的 登录 信息 被 泄 
FRU, WEBS Twitter 身份 盗用 案例 逐年 增加 。 网 络 社 
交 媒 体 用 户 量 和 信息 量 的 激增 进一步 凸显 了 作者 身份 
属性 研究 的 迫切 性 。 

作者 性 别 分 析 是 身份 属性 研究 的 主要 任务 之 一 ， 
网 络 文本 作者 性 别 分 析 有 助 于 商家 针对 客户 群体 开展 
精准 营销 ， 从 而 提高 个 性 化 推荐 和 拓展 市 场 的 效率 。 
作者 的 性 别 分 析 还 有 助 于 鉴别 匿名 虚假 信息 和 不 实 言 
论 的 来 源 ,， 避免 对 社会 经 济 秩序 和 治安 造成 严重 负面 
影响 。 

微 博 已 成 为 作者 性 别 分 析 关 注 的 重要 领域 , 2016 
年 第 一 季度 仅 新 浪 微 博 平 台 的 月 活跃 用 户 数 同比 增长 
32%, 已 达到 2.61 亿 品 。 微 博 作 者 的 性 别 识 别 已 成 为 国 
内 外 研究 的 热点 , 例如 利用 Twitter 用 户 信息 和 Tweets 


E 


局 限 在 于 对 用 户 名 等 信息 的 依赖 , 未 考虑 作者 刻意 隐 
藏身 份 的 情况 。 

为 此 , 本 文 提 出 无 需 微 博 用 户 信息 的 作者 性 别 识 
别 方法 , 通过 抽取 微 博文 本 的 依存 关系 特征 构建 微 博 
作者 性 别 文体 特征 模型 ， 并 在 微 博 语 料 上 与 现 有 文献 
中 的 特征 集 进行 比较 , 验证 依存 关系 特征 在 微 博 作者 
性 别 识别 中 的 有 效 性 。 


2 ”作者 性 别 识别 相关 研究 


网 络 文本 作者 性 别 分 析 研 究 涉及 网 络 评论 、BBS 
和 博客 等 语 料 ， 以 英文 为 主 。 代 表 研 究 有 Schler 等 站 
分 析 了 数 万 篇 近 3 亿 单 词 的 英文 博客 语 料 , 证 实 了 男 
性 与 女性 在 写作 风格 和 内 容 方面 均 存 在 明显 区 别 。 
Argamon 等 57 结合 人 称 代词 、 限 定 词 、 介 词 、 内 容 特 
征 等 语言 学 特征 和 Bayesian Multinomial Regression 
算法 对 博客 作者 语 料 进 行 作 者 性 别 分 析 ， 实 验 结果 达 
到 70% 左 右 的 准确 率 。 此 外 , 在 希腊 文 语 料 上 , Mikros 
等 外 利用 20 位 作者 的 博客 语 料 ， 建 立 包括 词 长 统计 、 
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词汇 丰富 度 、 最 常用 词汇 和 字符 Ngram 等 特征 的 文体 
特征 集 , 采用 支持 向 量 机 算法 得 到 80% 以 上 的 性 别 识 
JEX. Rangel 等 9 提出 词 频 、 标 点 、 词 性 标注 、 
英文 和 西班牙 语 情感 词 等 文体 特征 有 助 于 鉴定 匿名 作 
者 的 性 别 , 并 采用 支持 向 量 机 算法 在 PAN-AP-133 数 
据 集 上 取得 57% 的 性 别 识别 正确 紊 。 上 述 研 究 中 的 文 
本 长 度 普遍 高 于 微 博 文本 ,特征 集 从 数 百 维 到 数 千 维 ， 
作者 特征 集 存在 明显 的 稀 疏 性 。 此 外 , Burger 等 抽取 
Twitter 用 户 的 昵称、 账户 名 、 个 人 描述 和 Tweets PITE 
的 字符 1-5gram 和 单词 1-2gram 判 断 作者 的 性 别 , 得 到 
了 最 高 92% 的 准确 率 ， 只 采用 Tweets 文本 特征 时 , 仅 
取得 75% 左 右 的 作者 性 别 识别 准确 率 。 

针对 中 文 语 料 , 唐 琴 等 "提取 中 文 小 说 中 的 性 
别 倾向 描述 词 和 称谓 词 ， 指 出 前 者 具有 更 好 的 性 别 
指示 作用 ， 并 利用 特征 合集 在 人 名 性 别 识别 实验 中 
取得 73.2% 的 正确 率 ， 此 方法 未 在 短文 本 语 料 上 验 
证 。 黄 发 良 等 中 基于 词 项 特征 向 量 模 型 提出 粗糙 集 微 
博 用 户 性 别 识别 算法 ， 其 改进 的 特征 词 频 数 加 权 机 
制 降低 了 文档 零 相 似 现 象 ,但 未 提出 如 何 确定 容 差 
闵 值 。 白 丽 娟 中 选取 天 涯 网 站 汽车 和 股票 论坛 文本 ， 
通过 CFS 和 BestFirst 算法 得 到 特征 词 , 采用 朴素 由 
叶 斯 和 支持 向 量 机 等 算法 获得 70%-80% 的 准确 率 ， 
此 方法 准确 率 依赖 于 文本 长 度 ， 基 于 内 容 的 特征 词 
虽然 能 够 提高 性 别 识别 的 准确 率 , 但 影响 了 方法 的 
跨 主题 适用 性 。 王 晶 晶 等 所 在 中 文 微 博 上 采用 用 户 名 
1-2gram 和 首位 字 特 征 , 与 微 博文 本 的 1-2gram 特征 
构建 贝 叶 斯 分 类 融合 算法 ,达到 最 高 90% 左 右 的 作 
者 性 别 识别 准确 率 , 但 只 采用 微 博文 本 特征 的 最 高 
准确 率 仅 为 74% 左 右 。 

深层 句法 依存 关系 分 析 能 够 提取 主题 无 关 的 抽象 句 
法 结构 信息 ， 从 而 发 现 隐 含 的 写作 习惯 时， 近年 来 被 尝 
试 应 用 于 作者 风格 分 析 , 例如 Hollingsworth! R H 
DepWords 编码 替代 传统 句法 依存 关系 ,并 利用 其 统 
计 特 征 识别 英文 侦探 小 说 的 作者 身份 ; Zhang SEU 
取 包 括 结构 特征 、 功 能 词 、POS 、 常 用 词 和 依存 关系 
等 特征 , TE 21 本 英文 作品 和 路 透 社 语 料 上 的 对 照 实验 
表明 依存 关系 有 助 于 提高 作者 身份 识别 效率 。 依 存 关 
系 在 作者 性 别 识别 中 的 效果 还 有 待 探索 。 

本 文 基于 对 现 有 研究 和 微 博 文本 特征 的 分 析 , 提 
出 新 的 基于 依存 关系 的 作者 性 别 文体 特征 模型 。 
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3 作者 性 别 文体 特征 模型 


设 作 者 性 别 集合 为 A7 (Female, Male) , 有 训练 
ERR T, Sit booty ATEI A RIES 
是 学 习 训 练 集 建立 作者 性 别 特征 模型 ， 并 根据 此 模型 
为 匿名 文本 1 指定 一 个 最 可 能 的 作者 性 别 G (G, s4)。 
为 完成 这 一 任务 , 首先 要 将 非 结 构 化 的 文本 映射 到 文 
体 特 征 向 量 空间 并 抽取 作者 性 别 文 体 特征 集 ， 此 文体 
特征 集 应 该 具有 区 分 作者 性 别 的 描述 能 力 , 其 中 的 特 
征 值 应 具有 较 好 的 可 获取 性 。 

31 依存 关系 

依存 关系 是 由 法 国语 言 学 家 Tesniere 等 (提出 描 
述 句法 结构 的 理论 框架 ， 其 描述 的 基础 是 词 与 词 之 间 
的 从 属 和 支配 关系 ， 目 前 已 经 广泛 应 用 于 文本 挖掘 、 
多 语言 处 理 、 语 义 标注 和 信息 检索 等 领域 。 依 存 关系 
由 句子 核心 词 和 依存 词 的 依存 关系 对 组 成 ,句子 
S = (wy m wm} P, w 为 句子 中 第 i 个 词 , 抽取 句 
子 的 依存 关系 后 , 句子 可 表示 为 S= Gv), 
R, (Wais Ww), ROO Wz)}， 其 中 每 个 依存 关系 R, 
是 由 (wi,w,) 词 对 构成 的 有 向 弧 ， 由 支配 词 w, 指向 
被 支配 间 w, 其 中 wj eS, nn, sn eR, R 为 所 有 
依存 关系 类 型 的 集合 。 依 存 关系 的 形式 化 描述 公理 包 
157. 一 个 句子 的 独立 成 分 只 有 一 个 ; 除 此 独立 成 分 ， 
句子 中 其 他 成 分 都 直接 依存 于 本 句 中 的 某 一 成 分 ; 句 中 
任何 成 分 不 能 依存 于 两 个 以 上 成 分 ; 若 成 分 X 直接 依存 
于 成 分 又 成 分 3 在 句子 中 的 位 置 位 于 和 和 了 之 间 , 则 成 
分 Z 依 存 于 成 分 或 或 依存 于 XY 和 7 之 间 的 某 一 成 分 。 

依存 关系 作为 作者 性 别 文 体 特征 具有 三 个 优势 : 
依存 关系 存储 结构 简单 ， 可 计算 性 好 ,对 网 络 文本 大 
数据 和 跨 语 言 环 境 具有 良好 的 适应 性 ; 依存 句法 分 析 
强调 句子 成 分 间 的 支配 与 被 支配 、 修 饰 与 被 修饰 的 依 
存 关系 , 不 限于 句子 成 分 顺序 的 特性 有 助 于 分 析 句 式 
变化 灵活 的 网 络 文 本 ; 此 外 , 依存 关系 提取 抽象 句法 
结构 信息 , 具有 内 容 无 关 性 。 

本 文 以 复旦 大 学 FudanNLP09 中 定义 的 22 种 汉语 
依存 关系 作为 作者 性 别 识 别 特征 集 ，Fesxs# ={ 关 联 ， 
主语 , 标点， 疑问 连 动 , 补 语 ,， 语 态 ， 的 字 结 构 ,， 介 宾 ， 
数量 , 宾语 ,地 字 结 构 , 感叹 ， 时 态 ， 之 字 结 构 ， 同 位 
W, 得 字 结 构 ， 并 列 ， 连 动 , 修饰 ,核心 词 , 定语 , A 
语 }, 句子 成 分 依存 关系 如 图 1 所 示 。 
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定语 定语 主语 
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作者 身份 属性 分 析 在 市 场 营销 和 网 络 取证 等 领域 的 应 用 已 经 成 为 热点 。 
图 1 句子 成 分 依存 关系 示例 


3.2” 现 有 文体 特征 

本 文 在 对 照 实 验 中 引入 现 有 文献 提出 的 主要 文体 
特征 , 包括 词汇 特征 、 结 构 特 征 、 功 能 词 特征 、 词 性 
标注 特征 和 微 博 特 征 。 其 中 , 词汇 特征 包括 单词 的 统 
计 特 征 和 频率 ,如 词 长 、 词 汇丰 富 度 、 词 频 、 单 词 
Ngram 以 及 特殊 词汇 等 , 词汇 特征 的 抽取 很 大 程度 上 
依赖 于 语 料 长 度 ， 因 此 通常 不 单独 使 用 。 考 虑 到 微 博 
篇 幅 短 小 , 为 避免 词汇 特征 稀 玖 ,本 文 根 据 国家 语言 
资源 监测 与 研究 中 心 发 布 的 2015 年 中 国语 言 生活 状 
况 绿 皮 书 5 在 对 照 实验 中 选取 内 容 无 关 的 数 词 、 高 
频 词 、 时 间 词 和 日 期 词 的 出 现 次 数 作为 词汇 特征 。 

结构 特征 包括 文本 组 织 和 布局 相关 的 特征 ,包括 
标点 符号 、 段 落 数 、 段 落 长 、 平 均 句 长 等 , 在 E-mail, 
博客 或 微 博 等 短文 本 上 尤为 有 效 。 本 文 根 据 文献 [15] 
在 对 照 实验 中 选取 句子 个 数 、 字 符 数 以 及 冒号 、 分 号 、 
千 百 分 号 、 单 位 符号 、 名 号、 左右 引号 、 左 右 括号 、 
逗号 、 叹 号 、 省 略 号 ( 单 )、 省 上 略 号 ( 双 )、 破 折 号 、 空 格 、 
问号 和 顿 导 出 现 的 次 数 作为 结构 特征 。 

功能 词 特征 指 本 身 并 没有 独立 完整 词汇 意义 ,只 
表达 语法 意义 或 语法 功能 的 词 , 具有 与 主题 内 容 无 关 
的 特点 。 现 代 汉 语 中 的 功能 词 也 称 为 虚词 ， 功 能 词 出 
现 频率 高 、 数 量 少 , 已 经 被 证 实 是 有 效 的 文体 风格 特 
征 中 I。 中 文 功能 词 担 负 着 西方 语种 中 实 词 变化 表达 的 
语法 意义 , 具有 更 重要 的 语法 作用 。 在 对 照 实 验 中 选取 
文献 [20-21] 中 的 中 文 功能 词 的 合集 作为 功能 词 特征 。 

词性 标注 特征 是 根据 词 形 或 句法 行为 作用 进行 的 
单词 类 型 标注 , 通常 不 涉及 词 的 具体 含义 ， 具有 主题 
无 关 性 。 中 国 科 学 院 计算 技术 研究 所 的 ICTCLASP 
汉语 词性 标注 集 包 括 22 个 一 类 标记 , 66 个 二 类 标记 和 
11 个 三 类 标记 , 本 文 统计 ICTCLAS 汉语 词性 标注 集 
22 个 一 类 词性 POS 标注 在 每 千 词 中 出 现 的 次 数 。 

微 博 特征 包括 微 博 文本 特有 的 文本 布局 格式 , 例 
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如 话题 的 引用 、 用 户 名 的 指 代 、 图片 超 链接 的 使 用 等 。 
本 文 参照 文献 [23] 统 计 微 博 中 图 片 出 现 的 次 数 、 网 址 
URL、# 符 号 、@ 符 号 、Email 和 表情 符号 出 现 的 频次 。 


4 微 博 作者 性 别 识 别 实验 


4.1 数据 准备 

选取 腾讯 公开 微 博 作为 实验 语 料 ,， 收集 腾讯 微 博 
实名 注册 热点 人 物 在 2012 年 10 个 月 期 间 的 微 博文 本 
合计 6530 篇 , 其 中 男性 作者 5 496 篇 ,女性 作者 1 034 
篇 。 语 料 中 最 长 微 博文 本 篇 幅 为 284 字符 , 最 短 微 博 
文本 为 5 字符 , 平均 文本 长 度 为 73 字符 , 语 料 中 100 
字符 以 下 的 样本 占 65%。 

实验 采用 ICTCLAS 2015P3 进 行 中 文 语 料 分 词 和 
词性 标注 , 采用 FudanNLP1.508 分 析 依存 句法 关系 ， 
分 类 算法 实验 环境 为 Weka 3.7.924。 在 对 照 实验 中 执 
行 十 折 交 叉 验 证 ,以 作者 性 别 识别 的 准确 率 (Precisiom)、 
召回 率 (Recall 和 F-Measure 评估 模型 的 性 能 。 

将 汉语 依存 关系 特征 集 与 文献 20-21，23] 中 的 主 
要 文体 特征 进行 对 比 实验 ,主要 包括 : 词汇 特征 、 结 构 
特征 、 功 能 词 特征 、 词 性 标注 特征 和 微 博 特征 ， 特 征 


集 及 其 维度 和 关系 如 图 2 所 示 。 
结 
结构 特征 | S 
17 维 构 
mi 


i 句 结构 统计 特征 


| 微 博 符号 统计 特征 6 维 | 


标点 符号 统计 特征 


词汇 统计 特 和 


图 2 对照 实验 采用 的 特征 集 
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4.2 ”实验 及 分 析 
为 验证 依存 关系 在 中 文 微 博 作者 性 别 识别 中 的 有 
效 性 ,采用 支持 向 量 机 (LibSVM) 、 朴 素 贝 叶 斯 NBC)、 
最 近邻 IBK) 和 决策 树 (C4.5) 4 种 分 类 算法 进行 对 比 实 
验 。 实 验 结果 如 表 1 所 示 , 4 种 算法 作者 性 别 识别 的 最 
高 值 已 经 加 粗 显示 。 
表 1 LibSVM、NBC、IBK 和 C4.5 中 文 微 博 作者 
性 别 识别 结 
词汇 结构 微 博 功能 词性 依存 
特征 ”特征 特征 词 “标注 关系 
Precision 0.797 0.897 0.918 0.832 0.861 0.998 
Lib-SVM Recall 0.843 0.903 0.921 0.852 0.868 0.998 
F-Measure 0.787 0.898 0.914 0.802 0.835 0.998 
Precision 0.838 0.799 0.766 0.828 0.798 0.814 
NBC Recall 0.396 0.815 0.806 0.436 0.834 0.691 
F-Measure 0.432 0.806 0.781 0.482 0.807 0.730 
Precision 0.809 0.912 0.909 0.806 0.834 0.999 
IBK Recall 0.811 0.913 0.914 0.812 0.836 0.999 
F-Measure 0.810 0.912 0.909 0.809 0.835 0.999 
Precision 0.824 0.928 0.918 0.899 0.851 0.997 
C4.5 Recall 0.852 0.929 0.921 0.904 0.864 0.997 
F-Measure 0.818 0.928 0.915 0.893 0.855 0.997 


算法 指标 


(1) 比较 各 特征 集 对 作者 性 别 的 区 分 效果 , 总体 
上 依存 关系 特征 集 在 中 文 微 博 数据 集 实 验 中 的 准确 
率 、 召 回 率 和 F-Measure 值 最 高 , 在 支持 向 量 机 、 最 近 
邻 和 决策 树 算 法 的 实验 中 三 个 关键 指标 值 均 达 到 
99.7% 以 上 。 实 验 结果 证 实 了 依存 关系 特征 集 能 够 挖掘 
不 同性 别 作者 在 微 博文 本 表达 中 的 深层 句法 特征 , 与 
词汇 、 结 构 、 功 能 词 、 词 性 和 微 博 特 征 比 较 更 适应 短 
文本 ,能够 避免 特征 集 稀 玻 对 算法 效率 的 影响 。 

(2) 从 算法 性 能 看 ,总 体 上 , 最 近邻 、 支 持 向 量 
机 和 决策 树 C4.5 算法 的 作者 性 别 识别 准确 率 、 召 回 率 
和 F-Measure 的 加 权 平 均值 较 高 ,朴素 贝 叶 斯 算法 的 
效果 一 般 , 分 析 其 原因 是 朴素 贝 叶 斯 算法 的 独立 性 假 
设 在 大 多 数 特 征集 中 并 不 成 立 , 而 最 近邻 算法 和 支持 
向 量 机 算法 能 够 适应 样本 中 的 噪音 , 决策 树 算法 采用 
言 息 增益 率 作为 特征 选择 依据 ， 克 服 了 短文 本 的 特征 
稀 踊 和 噪声 干扰 。 

(3) 在 朴素 贝 叶 斯 算法 作者 性 别 识别 实 验 中 , 依 
存 关 系 特征 集 的 效果 不 如 其 他 特征 集 , 分 析 其 原因 是 
依存 关系 特征 不 满足 朴素 贝 叶 斯 算法 的 独立 性 假设 。 
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(4) 从 分 析 关 键 特征 的 角度 看 , 图 3 是 决策 树 
C4.5 算法 对 微 博文 本 依存 关系 特征 集 进行 性 别 识别 时 
构造 的 决策 树 , 决策 树 中 关键 特征 比较 集中 , 包括 关 
KRR, HERR, MEXR, ZTE, IT 
和 连 动 关系 ,可 以 作为 主要 特征 进一步 探究 不 同性 别 
作者 在 句法 结构 选用 中 的 倾向 。 


«11.939 >11.939 


<=0.328 ——»0.328 
TE> 
<=16.909 >16.909 <=11.958 ~ >11.958 


<=0.532 >0.532 <=13,197 >13.197 <=0.319 


>Q. 
CEED Female] [ Male ] 


.073 <=13.222 213222 


本 文 探究 了 深层 句法 分 析 特 征 在 中 文 微 博 作 者 性 
别 分 析 中 的 应 用 。 实 验 结 果 表 明 , 与 现 有 文献 中 的 方 
法 相 比 , 本 文 提 出 的 基于 依存 关系 的 中 文 微 博 作者 性 
别 文体 特征 模型 能 够 避免 短文 本 特征 集 的 稀 玻 性 , 与 
其 他 对 照 特征 集 相 比 , 能 更 有 效 地 识别 作者 性 别 。 本 
文 发 现 依 存 关 系 特征 中 的 关联 关系 、 主 语 关系 、 时 态 
关系 、 之 字 结 构 、 得 学 结构 和 连 动 关系 在 决策 树 中 起 
到 了 关键 节点 的 作用 , 后 续 研 究 将 在 大 规模 语 料 上 进 
一 步 验证 。 
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Identifying Chinese Microblog Author Gender Based on Dependency 


Qi Ruihua 
(School of Software, Dalian University of Foreign Languages, Dalian 116044, China) 


Abstract: [Objective] This paper proposes a new method to indentify the gender of Chinese microblog author with the 
help of dependency features. [Methods] This study collected public posts from Tencent Microblogs and extracted the 
dependency features, which were analyzed and compared with existing vocabulary, structure, function words, and 
part-of-speech tagging features. [Results] A controlled experiment showed that the proposed method obtained the 
highest values of precision, recall and F-measure. [Limitations] The new method needs to be examined with larger 
corpus. [Conclusions] The proposed method is the most effective way to identify the gender of microblog author. 


Keywords: Dependency Chinese Microblog Gender Identification 
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